Apakah Variabel Kategorik (Skala Nominal) dapat Dimasukkan dalam Persamaan Regresi Linier OLS?

Bagi para peneliti dan mahasiswa yang sedang menulis tesis, tentunya sudah tidak asing dengan penggunaan analisis regresi linier metode Ordinary Least Square (OLS). Regresi linier metode OLS ini merupakan salah satu teknik yang paling familier digunakan untuk menganalisis seberapa signifikan pengaruh variabel indepent terhadap variabel independent.

Regresi linier OLS ini terkenal sangat kuantitatif, dimana umumnya, regresi linier identik dengan variabel numerik yang diukur dalam skala interval atau skala rasio. Namun demikian, pada prakteknya kita juga sering kali menjumpai suatu case dimana kita ingin memasukkan suatu variabel penting yang sifatnya kategorik, seperti misalnya jenis usaha dan wilayah yang diduga berpengaruh terhadap variabel dependent yang sedang diukur.

Lalu, pertanyaannya: apakah variabel kategorik tersebut dapat kita masukkan dalam model regresi linier OLS? Jawabannya adalah ya, kita bisa memasukkannya ke dalam model. Namun, kita tetap memerlukan perlakuan khusus. Artikel yang Kanda Data tulis kali ini akan membahas mengenai bagaimana cara memasukkan variabel kategorik tersebut, batasannya, dan bagaimana caranya agar asumsi regresi linier OLS tetap dapat dipenuhi.

Yuk pahami apa itu variabel kategorik

Dalam statistik, kamu mungkin masih ingat mengenai skala pengukuran data. Skala pengukuran data dapat dibagi menjadi 4, yaitu skala data nominal, ordinal, interval, dan rasio. Skala pengukuran interval dan rasio ini dikenal dengan variabel numerik, adapun untuk variabel skala nominal dan ordinal ini dikenal dengan variabel kategorik.

Pada artikel ini, saya akan membahas mengenai variabel kategorik yang berskala nominal. Variabel kategorik skala nominal adalah variabel yang merepresentasikan kategori atau kelompok tanpa urutan tertentu. Pada intinya, variabel ini hanya membedakan saja, tanpa adanya urutan atau ranking. Contohnya: Jenis kelamin (laki-laki, perempuan), Status pekerjaan (tetap, kontrak, freelance), dan Wilayah (desa, kota).

Ciri khasnya, kategori dari masing-masing contoh tersebut bertujuan untuk membedakan tanpa adanya urutan atan ranking. Pada variabel kategorik ini, kita tidak bisa langsung memperoleh nilai numerik secara langsung. Artinya, kita tidak bisa begitu saja memasukkan label kategori ke dalam regresi, karena angka tersebut dapat disalahartikan sebagai nilai yang memiliki urutan atau jarak tertentu.

Asumsi regresi linier metode OLS

Sebelum memasukkan variabel kategorik, penting bagi kita untuk memahami terlebih dahulu mengenai apa saja asumsi dasar regresi OLS. Terdapat sejumlah asumsi yang perlu dipenuhi agar menghasilkan Best Linear Unbiassed Estimator.

Sebetulnya kalau kita buka kembali buku Theory of Econometrics, disitu banyak dijelaskan sekitar 14 asumsi regresi linier OLS. Namun, disini saya akan menyampaikan beberapa asumsi yang minimal perlu kita cek dan pastikan bahwa model regresi yang kita buat itu sudah memenuhi asumsi yang dipersyaratkaan.

Namun, karena fokus artikel ini tidak membahas hal tersebut maka saya hanya akan menyampaikan rangkuman asumsi OLS yang perlu kita ketahui. Pertama, kita perlu pastikan bahwa varians dari residual itu konstan (homoskedastisitas). Kedua, residual terdistribusi normal. Ketiga, tidak ada korelasi yang kuat antar variabel bebas (non multikolinieritas), hubungan antara variabel independent dan dependent bersifat linier. Jika kamu menggunakan data time series, kamu perlu menambahkan uji autokorelasi ya.

Setelah memahami asumsi yang dipersyaratkan tersebut, maka penambahan variabel kategorik tetap tidak boleh melanggar asumsi tersebut. Lalu, dimana kita letakkan variabel kategorik tersebut dalam analisis regresi linier metode OLS? Kita dapat memasukkan variabel kategorik tersebut sebagai variabel dummy. Yuk, kita pelajari lebih lanjut!

Variabel kategorik sebagai variabel dummy

Agar kita dapat memasukkan variabel kategorik yang berskala nominal tersebut, maka kita dapat memasukkannya sebagai variabel dummy. Variabel dummy ini nantinya akan berdampingan dengan variabel independent lainnya dalam persamaan regresi linier kita.

Variabel dummy adalah variabel biner yang merepresentasikan keberadaan suatu kategori. Teknik skoring pada variabel dummy ini menggunakan skor 0 dan 1. Contohnya, misal kita ingin mengetahui apakah kebijakan impor berpengaruh pada produksi domestik selama 15 tahun terakhir. Maka, kita dapat membuat variabel dummy, dimana sebelum kebijakan impor kita beri skor 0 dan setelah adanya kebijakan impor kita berikan skor 1.

Maka model regresi, misalnya dapat kita susun persamaannya sebagai berikut:

Y=β0+β1X1+ β2X2+ β3D+ε

Keterangan:

𝛽0 : Intercept

𝛽1, 𝛽2: koefisien variabel independent X1, X2

𝛽3: Koefisien estimasi variabel dummy

Satu hal yang perlu kita pahami, bahwa teknik interpretasi pada variabel dummy ini sedikit berbeda dengan cara interpretasi variabel independent yang lainnya.

Batas Variabel Dummy dalam Analisis Regresi OLS

Meskipun kita bisa memasukkan variabel kategorik dalam persamaan regresi linier metode OLS, namun ada batasannya. Kalau pada persamaan regresi linier OLS, isinya variabel dummy semua ini berpotensi menimbulkan multikolinieritas. Selain itu, jika variabel memiliki terlalu banyak kategori, penggunaan dummy dapat menyebabkan model menjadi kompleks dan overfitting.

Variabel dummy hanya cocok untuk skala nominal. Untuk skala ordinal, pendekatan dummy bisa digunakan, tetapi tidak menangkap informasi urutan secara efisien.

Kesimpulan

Variabel kategorik yang diukur dengan skala nominal dapat dimasukkan dalam regresi linier OLS, tetapi tidak secara langsung. Kita perlu merubah variabel tersebut menjadi variabel dummy agar dapat diinterpretasikan secara matematis dalam model regresi linier OLS.

Penggunaan variabel dummy memungkinkan kita untuk menganalisis perbedaan antar kelompok secara kuantitatif. Namun, perlu diperhatikan beberapa batasan penting seperti dummy variable trap, pemilihan kategori referensi, serta kompleksitas model.

Dengan pemahaman yang tepat, variabel kategorik yang berskala nominal ini, justru dapat memperkaya analisis regresi dan memberikan insight yang lebih baik. Baik, ini artikel yang dapat Kanda Data tulis pada kesempatan ini. Semoga bermanfaat dan memberikan wawasan tambahan untuk kita semua. Tunggu update artikel berikutnya dari Kanda Data di artikel edukasi berikutnya.

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

KANDA DATA

Blog